智能论文笔记

Computer-assisted Pronunciation Training -- Speech synthesis is almost all you need

Daniel Korzekwa , Jaime Lorenzo-Trueba , Thomas Drugman , Bozena Kostek

分类：机器学习

2022-07-02

研究界长期以来一直在非本地语音中研究了计算机辅助的发音训练（上尉）方法。研究人员致力于研究各种模型架构，例如贝叶斯网络和深度学习方法，以及分析语音信号的不同表示。尽管近年来取得了重大进展，但现有的CAPT方法仍无法以高精度检测发音误差（在40 \％-80 \％召回时只有60 \％精度）。关键问题之一是发音错误检测模型的可靠培训所需的语音错误的可用性较低。如果我们有一个可以模仿非本地语音并产生任何数量的训练数据的生成模型，那么检测发音错误的任务将容易得多。我们介绍了基于音素到音量（P2P），文本到语音（T2S）以及语音到语音（S2S）转换的三种创新技术，以生成正确发音和错误发音的合成语音。我们表明，这些技术不仅提高了三个机器学习模型的准确性，以检测发音错误，而且还有助于在现场建立新的最新技术。早期的研究使用了简单的语音生成技术，例如P2P转换，但仅是提高发音误差检测准确性的附加机制。另一方面，我们认为语音生成是检测发音误差的第一类方法。这些技术的有效性在检测发音和词汇应力误差的任务中进行了评估。评估中使用了非本地英语言语语料库。与最先进的方法相比，最佳提出的S2S技术将AUC度量误差的准确性从41 \％提高到41 \％从0.528提高到0.749。

translated by 谷歌翻译